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Прикладное применение адаптации на голос диктора 
в системах пословного распознавания 


Стаття присвячена розгляду та аналізу різних варіантів адаптації систем пофонемного розпізнавання 
ізольованих слів української мови до нового диктора. Описується метод адаптації під назвою «лінійна 
регресія максимальної правдоподібності» (МІК). У рамках цього методу шляхом оптимізації значення 
критерію розпізнавання обчислюються матриці лінійних перетворень, за якими адаптуються акустичні 
моделі фонем. Наводяться результати експериментальних досліджень розпізнавання мовлення адаптованої 
системи. Аналізуються дані розпізнавання адаптованих моделей залежно від кількості слів в адаптаційній 
вибірці. 

Ключові слова: адаптація, лінійна регресія максимальної правдоподібності, моделі фонем, 
матриці лінійних перетворень. 
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Статья посвящена рассмотрению и анализу различньх вариантов адаптации систем пофонемного 
распознавания изолированньх слов украинского язьтка к новому диктору. Описьваєтся метод адаптации 
под названиєм «линейная регрессия максимальной правдоподобности» (МІЛ В). В рамках зтого метода 
путем оптимизации значения критерия распознавания вьтчисляются матрицьт линейньтх преобразований, 
которье задействованьт в адаптации акустических моделей фонем. Представленьт результатьт зкспе- 
риментальньх исследований распознавания речи адаптированной системь. Анализируются данньте 
распознавания адаптированньгх моделей в зависимости от количества слов в адаптационной вьгборке. 

Ключевьг-е слова: адаптация, фонемьг, распознавание, линейная регрессия 

максимальной правдоподобности, обучение. 
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Вступ 


Пофонемне розпізнавання мовленнєвого сигналу передбачає формування усно- 
мовного паспорта диктора, що включає акустичні моделі фонем (ймовірнісні пара- 
метри моделей) |1|. Оцінка цих параметрів проводиться за навчальною вибіркою, яка 
повинна містити все фонемне розмаїття мови. Досвід формування таких вибірок по- 
казав, що їх обсяги повинні бути достатньо великими, а це в свою чергу призводить 
до того, що диктору необхідно витратити багато годин для запису своєї навчальної 
вибірки, щоб досягти прийнятної надійності при пофонемному розпізнаванні мовлення 
з великих словників |2|. Така система розпізнавання буде давати цілком прийнятні 
результати для диктора, на базі котрого проходило навчання розпізнаванню (оцінка 
параметрів). Цей диктор буде називатися опорним. Але для іншого, нового диктора, ця 
сама система розпізнавання буде працювати не досить добре, якщо не сказати - погано. 

Безпосередній висновок з цього випливає абсолютно чіткий та прямолінійний -- 
провести в точності таке ж саме навчання для нового диктора, як і для опорного, з ви- 
користанням такої ж самої великої навчальної вибірки. Але цілком можлива наступна 
гіпотетична ситуація - або новий диктор не має жодної можливості наговорювати 
велику навчальну вибірку (цілком свідомо, за браком часу, наприклад), або ж не має, 
також цілком свідомо, ані найменшого бажання це робити (і з цим, безсумнівно, також 
треба рахуватися в певному сенсі), або ж новий диктор розпізнається поза його поїн- 
формованості про це й нема можливості звертатися до нього з проханням наговорити 
велику навчальну вибірку. 

Виникає цілком слушне питання - а чи не можна новому дикторові вимовити 
відносно невелику навчальну вибірку, а потім за допомогою певних методів провести 
пристосування (адаптацію) до вже існуючої системи розпізнавання, що навчена на 
опорного диктора, й при цьому отримати прийнятну надійність розпізнавання? Прин- 
ципово така можливість мусить існувати. Порівняння відеоспектрограм, отриманих з 
аналізу мовлення різних дикторів, показує, що при всьому різноманітті прояву інди- 
відуальних особливостей голосів, відеоспектрограми одних й тих самих слів достатньо 
схожі |3|. Таким чином, необхідно перетворити мовні сигнали одного диктора в мовні 
сигнали іншого. 

Отже, задача адаптації передбачає попереднє проведення навчання розпізнаван- 
ню на голос деякого опорного диктора або кооперативу дикторів. Потім здійснюється 
коригування параметрів акустичних моделей фонем для нового диктора на відносно 
невеликій вибірці - адаптаційній. Також адаптація може проводитися і до зміни умов 
розпізнавання, як, наприклад, перехід на інший канал отримання усномовної інфор- 
мації (інший мікрофон, телефонна лінія). 

Метою роботи є дослідити та проаналізувати застосування різних підходів в 
адаптації на голос диктора при пофонемному розпізнаванні окремо вимовлюваних слів 
українського мовлення. 


Задача адаптації та шляхи її розв'язання 


Нехай маємо оцінені параметри акустичних генеративних моделей фонем на під- 
ставі ітераційних процедур для опорного диктора або для кооперативу дикторів |3|, (41. 
Зокрема, для кожної з трьох фаз-станів фонеми ф (рис. 1) нам відомі вектор матема- 
тичного сподівання у - Їм А АЕН Ї та коваріаційна матриця 2, розмірністю пхи, 


де п - розмірність вектора первинних ознак сигналу. 
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Рисунок 1 - Генеративна модель фонеми ф з трьома фазами-станами ФІ, Ф2, Ф3 
(початковий стан ФО і кінцевий стан ф4 вводяться для сполучення з іншими 
моделями фонем в словах. Число поруч із дужкою вказує на кількість 
часових відліків, за які здійснюється перехід) 


Припускається, що існує лінійне перетворення, яке переводить початкові вектори 
математичного сподівання опорного диктора або кооперативу дикторів у вектори ма- 
тематичного сподівання для нового диктора. Це лінійне перетворення являє собою 
матрицю розмірністю пх(п-- 1). Ефектом цього перетворення є зсув середніх значень 


параметрів моделей фонем та зміна дисперсій цих параметрів у початковій системі 
таким чином, що кожний стан у системі акустичних моделей фонем буде точніше 
генерувати дані адаптації, котрі отримані від нового диктора. 

Лінійне перетворення для вектора математичного сподівання записується у вигляді: 


й зе, 1) 
де Й - вектор матсподівання нового диктора, И/ є матрицею розмірністю 
пх(п-1), 4 - вектор розширеного матсподівання: 
АР | А РА ТТ (2) 
У свою чергу, матриця И/ може бути представлена у вигляді: 
УМ «|Р АІ, (3) 


де А є матрицею лінійних перетворень розмірністю пхи, а Б представляє 
вектор зміщення в п-вимірному просторі. 

У такій формі перетворення зручніше обчислюється в умовах неперервного роз- 
поділу за нормальним законом. 

Лінійне перетворення також коваріаційних матриць записується у вигляді: 


ХоВІНВ, (4) 


де Н - матриця перетворення розмірністю их и, котру необхідно обчислити; 
В - розклад Холецького для коваріаційної матриці 2., такий, що: 

зеєсо, 

веб. 

Матриці лінійних перетворень отримуються шляхом оптимізації значення крите- 
рію розпізнавання. Одним з таких оптимізаційних алгоритмів є лінійна регресія макси- 
мальної правдоподібності (Махітит ІлКкепрооа Ілпеаг Вестез8іоп - МІТК) |41. Пара- 
метри всіх станів всіх фонем у системі розпізнавання програмно поділяються на певну 
кількість класів регресії методами векторного квантування, а потім для кожного класу 
регресії обчислюються дві матриці лінійних перетворень - для матсподівання та для 
коваріаційної матриці. У випадку, коли стани моделей фонем задаються сумішшю 
нормальних законів розподілу - гаусіанами (кожний стан буде мати декілька векторів 
матсподівання 1 таку ж кількість коваріаційних матриць), тоді до класів регресії входять 
окремі гаусіани. 
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Нижче наведена стандартна допоміжна функція, котра використовується для 
обчислення перетворень (1) та (4): 


О(М,Му- «ЗУ У У ЯЗ | кою и ОЗ, 


геї т.з їі 


ун(осу- й, З оч, 


де М - множина моделей фонем опорного диктора; 

М - адаптована множина моделей фонем; 

К - кількість класів регресії; 

М, - кількість гаусіанів в /-му класі регресії; 

Т - кількість п-вимірних векторів спостереження з адаптаційної вибірки; 


о(1Т) - п-вимірний вектор спостереження з адаптаційної вибірки в дискретний 
момент часу г141Х2Т; 


159 ймовірність того, що вектор спостереження о(г) був «згенерований» гау- 


сіаном з номером т;; 
К"?) містить всі константи гаусіана т,. 


Для знаходження матриці перетворення, наприклад, векторів матсподівання, ро- 
биться заміна у виразі для МІІЇ.К адаптації матсподівання 


я 
л 
Й, ЗУ Ь Х і узр 7 


в допоміжну функцію, й, маючи на увазі, що коваріаційні матриці - діагональні, 
отримуємо: 


ОМ, М) -ЗХУХь, су ко за, рн (ОМ, (обу. 


те т, 21 1з1 


Після певної кількості перетворень отримуємо формулу у вигляді: 


О(М,Муак ЗУ УГнубом Зу/ 2 , 


гі ті "Р 
те ізі 


де му - Ї-Й рядок матриці И/, 


ті , 
ї ті 


- М, 1 б Т 
С б т ра 3. І, (1), 


мМ, т 1 


ко ХА 6 010) 


т, їі 


ті 


Диференціюючи допоміжну функцію відносно перетворення Й/ , а потім макси- 
мізуючи відносно до перетвореного матсподівання, отримуємо формули для обчис- 
лення матриці перетворення: 


і і)71, 
прекоб зе демо Юо 


Експериментальна база 


Були проведені експериментальні дослідження. В першому експерименті були 
задіяні окремі диктори як опорні та нові. 

В подальших експериментах були задіяні 67 дикторів (25 чоловіків і 42 жінки). 
Оскільки є загальновідомим той факт, що надійність розпізнавання жіночих голосів 
нижча |351, кількість жінок-дикторів більша за кількість чоловіків. Тут кожний диктор 
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наговорював свою певну навчальну вибірку (НВ). Оскільки цих певних НВ було 10, то 
різні диктори могли наговорювати однакові слова. Всього цими дикторами було наго- 
ворено 2416 різних слів. До алфавіту фонем увійшло 55 елементів. До базового коопе- 
ративу дикторів (група дикторів, на навчальній базі котрих було проведено навчання 
системи розпізнавання) відібрали 53 диктори. Решта 14 дикторів (7 чоловіків та 7 жінок) 
увійшли до контрольної групи. Диктори з контрольної групи наговорювали один і той 
самий набір слів (241 слово). Реалізації цих слів не входять до базового кооперативу. 


Результати експериментальних досліджень 


Перший експеримент полягав у тому, що створювалися системи розпізнавання 
на базі одного опорного диктора. Потім проводилася адаптація нових дикторів до цієї 
системи. Слід зазначити, що при такому підході автори отримали невисоку надійність 
розпізнавання, а саме від 30 до 50 процентів після адаптації. Тому було вирішено пере- 
йти від одного опорного диктора до кооперативу дикторів. 

Другий експеримент полягав у тому, що як «опорного диктора» використали 
кооператив 53 дикторів. Диктори різної статі, віку, з різних міст України. Група дик- 
торів з контрольної групи (14 дикторів) з різних міст, усі наговорювали один і той 
самий набір слів (241 слово). 

Результати другого експерименту відображені у табл. 1. У ній наведена усеред- 
нена надійність розпізнавання до та після адаптації на базовий кооператив дикторів 
кожного диктора з контрольної групи окремо на 30, 60, 100 1 150 слів. 

Кількість гаусіанів у сумішах моделей фонем - 16. 

Результати, наведені у табл. 1, показують, що після адаптації на голос нового 
диктора надійність розпізнавання в середньому виросла на 3,66905 для адаптаційної 
вибірки об'ємом у 30 слів, на 4,4590 - для 60 слів, на 5,330 - для 100 слів, на 5,939 -- 
для 150 слів. 


Таблиця 1 - Усереднені результати розпізнавання тестових вибірок 
слів для контрольної групи дикторів після адаптації на різну кількість 
слів - 30, 60, 100 та 150 слів 


Кількість слів на 
адаптацію | До адаптації 30 60 100 150 
Диктори 
1. Ганя 93,78 95,13 95,30 95,32 97,07 
2. Ганна 91,29 92,76 93,19 93,90 94,51 
3. Богдан 80,50 89,71 90,98 92,62 95,24 
4. Валентина 95,02 95,26 96,13 96,03 94,87 
5. Дмитро 92,12 95,60 96,96 97,73 97,80 
6. Катерина 79,25 86,60 87,66 90,21 90,48 
7. Олена 90,46 94,11 95,40 95,32 96,34 
8. Олеся 92,53 96,82 97,19 98,01 97,80 
9. Руслан 89,21 93,23 94,57 95,46 95,24 
10. Сергій 95,81 96,41 96,60 97,45 97,80 
11. Слава 89,21 93,09 92,81 93,62 93,77 
12. Тетяна 87,14 91,33 93,00 94,33 96,33 
13. Юрій 89,21 93,16 93,93 96,31 96,70 
14, Юрій В. 92,53 96,07 96,04 96,31 97,07 
В середньому по групі 89,36 93,52 94,31 95,19 95,79 
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На рис. 2 зображений графік надійності розпізнавання в середньому по контроль- 
ній групі дикторів до та після адаптації. 
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Рисунок 2 - Усереднена надійність розпізнавання дикторів контрольної групи 
до та після адаптації при різній кількості слів в адаптаційній вибірці (АВ) 


Навчання розпізнаванню проводилось на основі бази даних для 53 дикторів з 
п'яти міст України. При адаптації обчислювалися матриці переходу для середнього 
та дисперсії. 

Додатково були проведені дослідження з питання - що краще: навчання нового 
диктора на зазначену кількість слів (30, 60, 100 та 150) чи адаптація на цю кількість 
слів? В результаті вияснилося, що кращі результати отримуємо при адаптації. Навіть 
150 слів на окреме навчання нового диктора було недостатньо, щоб отримати резуль- 
тати кращі, ніж при адаптації. 

Третій експеримент полягав у тому, щоб базовий кооператив розбити на два коо- 
перативи за гендерною ознакою. За такою ж ознакою контрольна група розбивалася 
на дві - жінок-дикторів і чоловіків-дикторів. У даному випадку жінки-диктори адап- 
тувалися до жіночого кооперативу, а чоловіки-диктори - до чоловічого відповідно. 
Прогнозувалося, що через суттєву різницю жіночих і чоловічих голосів це дасть 
підвищення надійності розпізнавання після адаптації. Слід зазначити, що перед цим 
експериментом проводилися експерименти з розпізнавання голосів дикторів з альтер- 
нативою «чоловічий -- жіночий голос». Система практично стовідсотково розпізнавала, 
де голос жіночий, а де чоловічий. Отже, віднести диктора до конкретної гендерної 
групи не є складним. Врешті-решт, в певних ситуаціях, коли адаптація для диктора є 
цілком усвідомленою для нього, то можна «спитати» цього диктора, хто він є. Ця про- 
цедура не повинна відібрати багато часу у нового диктора. 

У табл. 2 наведені усереднені результати надійності розпізнавання для конт- 
рольної групи дикторів жіночої статі до адаптації та після адаптації до кооперативу 
жінок-дикторів на різну кількість слів. 

Контрольна група (7 жінок-дикторів) з різних міст, усі наговорювали один і той 
самий набір слів (241 слово). З табл. 2 випливає, що після адаптації до голосу нового 
диктора надійність розпізнавання в середньому зросла на 2,410 для адаптаційної ви- 
бірки об'ємом 30 слів, на 2,9590 - для 60 слів, на 3,7690 -- для 100 слів, на 4,469 -- для 


190 «Искусственньй интеллект» 372012 


Прикладне застосування адаптації на голос диктора в системах... 


150 слів. На рис. 3 зображені порівняльні графіки надійності розпізнавання в середньому 
по контрольній групі жінок-дикторів без урахування гендерності та з урахуванням. 
Навчання розпізнаванню проводилось на основі бази даних для 36 дикторів жі- 


ночої статі з декількох міст України. 


Таблиця 2 - Усереднені результати розпізнавання тестових вибірок 


слів для контрольної групи жінок-дикторів після адаптації до кооперативу 


жінок-дикторів на різну кількість слів - 30, 60, 100 та 150 слів 


Кількість слів на 
Диктори адаптацію | До адаптації 30 

Ганя 95,85 96,21 

Ганна 92,95 93,64 

Катерина 84,65 89,37 

Олена 93,36 96,07 

Олеся 92,95 97,16 

Валентина 94,19 94,51 

Тетяна 88,80 92,62 93,37 93,90 94,51 
В середньому по групі 91,82 94,23 94,77 95,58 96,28 
Без врахування гендерності 89,92 93,14 94,07 94,73 95,34 


Таблиця 3 - Усереднені результати розпізнавання тестових вибірок 


слів для контрольної групи чоловіків-дикторів після адаптації до кооперативу 
чоловіків-дикторів на різну кількість слів - 30, 60, 100 та 150 слів 
Кількість слів на 
адаптацію До адаптації 30 60 100 150 
Диктори 

Богдан 84,65 89,37 89,96 90,64 92,31 
Дмитро 92,95 94,18 95,21 96,31 97,07 
Руслан 96,31 95,60 
Сергій 96,34 96,55 96,04 98,01 96,70 
Слава 91,70 93,57 94,01 94,61 94,87 
Юрій 90,04 91,81 93,46 93,48 93,41 
Юрій В. 91,29 96,47 95,96 97,02 97,43 
В середньому по групі 90,71 93,71 94,19 95,20 95,34 
Без врахування гендерності 89,80 93,90 94,56 95,64 96,23 


У табл.3 наведені усереднені результати надійності розпізнавання для конт- 
рольної групи дикторів чоловічої статі до адаптації та після адаптації до кооперативу 
чоловіків-дикторів на різну кількість слів. Контрольна група (7 чоловіків-дикторів) з 
різних міст, усі наговорювали один і той самий набір слів (241 слово). З табл. 3 видно, 
що після адаптації до голосу нового диктора надійність розпізнавання у середньому 
зросла на 3905 для адаптаційної вибірки об'ємом 30 слів, на 3,4390 - для 60 слів, на 
4,4995 - для 100 слів, на 4,639 - для 150 слів. На рис. 4 зображені порівняльні гра- 
фіки надійності розпізнавання в середньому по контрольній групі чоловіків-дикторів 
без урахування гендерності та з урахуванням. 

Навчання розпізнаванню проводилось на основі бази даних для 17 дикторів чоло- 
вічої статі з декількох міст України. 


«Штучний інтелект» 332012 191 


Селюх Р.А., Юхименко О.А. 
зсС 


97 


96,28 
96 


95 


,9 


94 
и Рай 


93 


92 91 


надійність розпізнавання 


91 З -0- кооператив жінок-дикторів 


ни чі М 
З" | базовий кооператив 


89 


0 30 60 100 150 


кількість слів для адаптації 


Рисунок 3 - Усереднена надійність розпізнавання дикторів жіночої статі 
до 1 після адаптації при різній кількості слів в АВ 
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Рисунок 4 - Усереднена надійність розпізнавання дикторів чоловічої статі 
до 1 після адаптації при різній кількості слів в АВ 


Висновки 


Результати експериментальних досліджень наявно показують доцільність засто- 
сування адаптації. Необхідно відзначити, що середня надійність розпізнавання самих 
дикторів з базового кооперативу складає 94,32. Фактично в контрольній групі дикто- 
рів уже при адаптації на 60 слів досягається ця надійність (у середньому, зрозуміло), 
не кажучи вже про більшу кількість слів для адаптації. При цьому диктори базового 
кооперативу наговорили більше дванадцяти тисяч слів у загальній навчальній вибірці. 
У такій ситуації перевага адаптації очевидна. 

Подальша адаптація до голосу диктора на основі гендернозалежних акустичних 
моделей показала таку ж динаміку зменшення помилок для дикторів жіночої статі. 
Цей ефект не спостерігався для чоловічої статі, імовірно, з причини меншої кількості 
дикторів-чоловіків у базовому кооперативі. 
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